Extreme Co-Design(极端协同设计)
概念解析
定义与起源
Extreme Co-Design 是 黄仁勋 在 摩尔定律已死 之后给出的工程哲学:当晶体管的免费午餐结束之后,要继续让性能指数级增长,就必须同时优化模型算法、系统软件、芯片架构、网络、机柜结构、电源、冷却——把"框内创新"变成"框外创新"。
最完整的一段定义出现在 2025-09 BG2 Pod - OpenAI 与算力未来:
"Extreme co-design means that you have to optimize the model algorithm, system and chip at the same time. You have to innovate outside the box. Because Moore's law said you just have to keep making the CPU faster. Everything got faster. You were innovating within the box. Well, if that chip doesn't go any faster, then what are you going to do? Innovate outside the box."
"Extreme co-design 就是你得同时优化模型算法、系统和芯片——你必须在框外创新。因为摩尔定律告诉你只要让 CPU 更快就行——那是框内创新。但如果那颗芯片不能更快了,你怎么办?框外创新。"
——2025-09 BG2 Pod - OpenAI 与算力未来
核心要义
第一,问题已经装不下一台计算机了。
2026-03 Lex Fridman 494 - 4 万亿公司与 AGI 里 黄仁勋 给出了 Extreme Co-Design 的根本理由:
"The problem no longer fits inside one computer. You would like to go faster than the number of computers that you add. Then all of a sudden you have to take the algorithm, shard the pipeline, shard the data, shard the model. The CPU is a problem, the GPU is a problem, the networking is a problem, the switching is a problem. Everything is in the way."
"问题已经不能装进一台计算机里了。你加上 1 万台计算机,却希望它跑得比 1 万倍还快 100 倍。在这种规模的分布式计算里,CPU 是问题,GPU 是问题,网络是问题,交换机是问题——每一样东西都挡在路上。"
——2026-03 Lex Fridman 494 - 4 万亿公司与 AGI
第二,Blackwell 比 Hopper 快 30 倍——不是靠晶体管,是靠跨层重做。
2025-09 BG2 Pod - OpenAI 与算力未来 给出了最震撼的对比:
"Blackwell to Hopper is 30 times. No Moore's law could possibly achieve that. That's because NVIDIA got into networking and switching and scale up and scale out and scale across, building CPUs and building GPUs and building NICs."
"Blackwell 对 Hopper 是 30 倍。摩尔定律连十分之一都给不了。这是因为 NVIDIA 同时重做了 CPU、GPU、网络芯片、NVLink scale-up、Spectrum-X scale-out、冷却、电源、机架——全部重新设计。"
——2025-09 BG2 Pod - OpenAI 与算力未来
第三,一年一代意味着 6-7 颗芯片同步进化。
"我们一年出一代——每一代都是 6-7 颗芯片同步进化,整个系统每年推倒一次。谁会给一个首次流片的新架构下 500 亿美金的 PO?NVIDIA 可以,因为架构已经验证过,客户规模极大,供应链规模极大。"
——2025-09 BG2 Pod - OpenAI 与算力未来
第四,Extreme Co-Design 不只发生在 NVIDIA 内部,是一整条上下游产业链的协同。
2026-03 Lex Fridman 494 - 4 万亿公司与 AGI 里 黄仁勋 花了一大段讲他怎么提前 5 年说服 HBM 厂商投资、把手机用的 LPDDR5 内存搬进超算、和 ASML、TSMC、SK Hynix、GE、Caterpillar 同时谈:
"I shape, inform, inspire upstream and downstream simultaneously. Every rack has 1.3 to 1.5 million parts, 200 suppliers."
"我同时塑造、告知、激励上游和下游。每个机架 130-150 万个零件,200 家供应商。"
——2026-03 Lex Fridman 494 - 4 万亿公司与 AGI
这是 Extreme Co-Design 的真正"极端"——它跨越了整个半导体产业的边界。
实践应用
- Blackwell NVLink72 —— 60 万零件、120 千瓦、单机柜 720 petaflops(2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin)
- Vera Rubin NVLink144 —— "除了机箱以外什么都是新的"——CPU、GPU、NVLink6、HBM4 全换
- NVIDIA Dynamo —— 把 prefill / decode 分离 + KV cache 路由 + in-flight batching 做到操作系统层面
- CPO 硅光子 —— 2025-03 GTC 2025 - Blackwell Ultra 与 Vera Rubin 提到,省下 60 兆瓦的 transceivers 功耗
- HBM 5 年提前布局 —— 说服三家 DRAM 厂商投资 AI 内存(2026-03 Lex Fridman 494 - 4 万亿公司与 AGI)
常见误区
误区一:Extreme Co-Design 只是"系统集成"。
错。系统集成是组装现成模块;Extreme Co-Design 是 同时重做 算法、系统、芯片、互联——任何一层不动,下一层就被卡住。
误区二:Extreme Co-Design 只有 NVIDIA 这种巨头才做得起。
对一半。但 黄仁勋 在 2025-09 BG2 Pod - OpenAI 与算力未来 强调:"这是 ASIC 的根本困境——你三五年前立项的时候,整个行业看起来只是'一颗 GPU';今天它是整个 AI 工厂——transformer 架构每六个月就在变。" 不做 Extreme Co-Design 不是"做不起",是会被时代甩开。
误区三:Extreme Co-Design 等于"更复杂的产品"。
错——结果反而更便宜。Blackwell NVLink72 用 NVLink Switch 直接驱动铜线,省下 20 千瓦的光收发器——单是这一项节省的电力就能在 1 GW 工厂里多塞几十个机柜。
黄仁勋原话精选
"You have to innovate outside the box."
"你必须在框外创新。"
——2025-09 BG2 Pod - OpenAI 与算力未来"No Moore's law could possibly achieve that."
"摩尔定律根本不可能做到这件事。"
——2025-09 BG2 Pod - OpenAI 与算力未来"We present a problem and all of us attack it. Because we're doing extreme co-design, whoever wants to tune out, tune out."
"我们把一个问题端出来,所有人一起攻。这是 extreme co-design,谁想走神就走神。"
——2026-03 Lex Fridman 494 - 4 万亿公司与 AGI"Every problem no longer fits inside one computer to be accelerated by one GPU."
"每一个问题都不再能装进一台计算机用一颗 GPU 来加速。"
——2026-03 Lex Fridman 494 - 4 万亿公司与 AGI
思想演变
- 2021 年春:GTC 2021 第一次提"三芯片战略(CPU + GPU + DPU)"——Extreme Co-Design 的早期形态
- 2022 年春:GTC 2022 把 NVLink 开放给客户做半定制芯片——Co-Design 走出 NVIDIA 内部
- 2024 年春:GTC 2024 Blackwell NVLink72 把"机柜即芯片"作为成果摆上桌
- 2025 年春:GTC 2025 给出"30 倍 perf-per-watt"的硬数字
- 2025 年秋:BG2 Pod 把 "Extreme Co-Design" 作为正式术语推上舞台
- 2026 年春:Lex Fridman #494 把它扩展为"上下游产业链的协同"
相关概念
- 摩尔定律已死 —— Extreme Co-Design 的"为什么必须存在"
- 加速计算 —— Extreme Co-Design 的根命题
- Scale Up 与 Scale Out —— Extreme Co-Design 的两条工程轴
- 数据中心即计算机 —— Extreme Co-Design 的产品形态
- Token 经济 —— Extreme Co-Design 拉到极致的目标函数(perf-per-watt = 收入)
- 硬件软件协同设计 —— 词表里的同义/相关项
典型案例
- Blackwell NVLink72:60 万零件、5000 根 NVLink 线、铜代光省 20 千瓦
- Vera Rubin NVLink144:除了机箱什么都是新的
- CPO 硅光子:5 年技术风险换来的 60 兆瓦电力节省
- HBM 5 年布局:黄仁勋 提前说服 DRAM CEO 投资
- NVLink Switch:500 亿晶体管的"连接器"——一颗专门做互联的芯片